其他
如何全面掌握 Python 中正则表达式的使用?
The following article is from 裸睡的猪 Author 猪哥
👆 “Python猫” ,一个值得加星标的公众号
一、re模块简介
re
库,这是一个Python处理文本的标准库。标准库的意思表示这是一个Python内置模块,不需要额外下载,目前Python内置模块大概有300个。可以在这里查看Python所有的内置模块:https://docs.python.org/3/py-modindex.html#cap-r
import re
二、re模块常量
1. IGNORECASE
2. ASCII
\w
, \W
, \b
, \B
, \d
, \D
, \s
和 \S
只匹配ASCII,而不是Unicode。在默认匹配模式下
\w+
匹配到了所有字符串,而在ASCII模式下,只匹配到了a、b、c(ASCII编码支持的字符)。3. DOTALL
.
,ALL表示所有,连起来就是.
匹配所有,包括换行符\n
。默认模式下.
是不能匹配行符\n
的。.
并没有匹配换行符\n
,而是将字符串分开匹配;而在re.DOTALL模式下,换行符\n
与字符串一起被匹配到。.
并不会匹配换行符\n
。4. MULTILINE
\n
,默认模式下是不支持换行符特性的,比如:行开头 和 行结尾,而多行模式下是支持匹配行开头的。^
表示匹配行的开头,默认模式下它只能匹配字符串的开头;而在多行模式下,它还可以匹配 换行符\n
后面的字符。^
匹配行开头、\A
匹配字符串开头,单行模式下它两效果一致,多行模式下\A
不能识别\n
。5. VERBOSE
默认模式下并不能识别正则表达式中的注释,而详细模式是可以识别的。
6.LOCALE
\w
, \W
, \b
, \B
和大小写敏感匹配,这个标记只能对byte样式有效。这个标记官方已经不推荐使用,因为语言区域机制很不可靠,它一次只能处理一个 “习惯”,而且只对8位字节有效。7.UNICODE
8. DEBUG
9.TEMPLATE
10. 常量总结
9个常量中,前5个(IGNORECASE、ASCII、DOTALL、MULTILINE、VERBOSE)有用处,两个(LOCALE、UNICODE)官方不建议使用、两个(TEMPLATE、DEBUG)试验性功能,不能依赖。 常量在re常用函数中都可以使用,查看源码可得知。 常量可叠加使用,因为常量值都是2的幂次方值,所以是可以叠加使用的,叠加时请使用 |
符号,请勿使用+
符号!
三、re模块函数
1.查找一个匹配项
search: 查找任意位置的匹配项
match: 必须从字符串开头匹配
fullmatch: 整个字符串与正则完全匹配
a
,所以无法匹配,fullmatch函数需要完全相同,故也不匹配!案例3中,我们只留下一段文字,并且与正则表达式一致;这时fullmatch函数终于可以匹配了。
2.查找多个匹配项
findall: 从字符串任意位置查找,返回一个列表
finditer:从字符串任意位置查找,返回一个迭代器
如果可能存在大量的匹配项的话,建议使用finditer函数,一般情况使用findall函数基本没啥影响。
3.分割
str
模块也有一个 split函数 ,那这两个函数该怎么选呢?str.split函数功能简单,不支持正则分割,而re.split支持正则。
re.split
函数与str.split
函数执行次数 与 执行时间 对比图:通过上图对比发现,1000次循环以内
str.split
函数更快,而循环次数1000次以上后re.split
函数明显更快,而且次数越多差距越大!str.split
函数更合适,反之则使用re.split
函数。4.替换
5.编译正则对象
而template函数 与 compile函数 类似,只不过是增加了我们之前说的re.TEMPLATE 模式,我们可以看看源码。
6.其他
.
或者 *
,举个实际的案例:re.escape(pattern) 看似非常好用省去了我们自己加转义,但是使用它很容易出现转义错误的问题,所以并不建议使用它转义,而建议大家自己手动转义!
看方法大概是清除缓存吧,我们再来看看具体的案例:
猪哥在两个案例之间使用了re.purge() 函数清除缓存,然后分别比较前后案例源码里面的缓存,看看是否有变化!
7.总结
四、re模块异常
上图案例中我们可以看到,在编写正则表达式中我们多写了一个后括号,这导致执行结果报错;而且是在其他所有案例执行之前,所以说明是在正则表达式编译时期就报错了。
五、正则对象Pattern
re
模块的常量、函数、异常我们都讲解完毕,但是完全有必要再讲讲正则对象Pattern。1. 与re模块 函数一致
re
模块的函数中有一个重要的函数 compile函数 ,这个函数可以预编译返回一个正则对象,此正则对象拥有与re
模块相同的函数,我们来看看Pattern类的源码。re
模块的源码,你会发现其实compile函数 与 其他 re函数(search、split、sub等等) 内部调用的是同一个函数,最终还是调用正则对象的函数!也就是说下面 两种代码写法底层实现 其实是一致的:
# re函数
re.search(pattern, text)
# 正则对象函数
compile = re.compile(pattern)
compile.search(text)
2. 官方文档怎么说
官方文档推荐:在多次使用某个正则表达式时推荐使用正则对象Pattern 以增加复用性,因为通过 re.compile(pattern) 编译后的模块级函数会被缓存!
3. 实际测试又如何?
猪哥编写了两个函数,一个使用re.search函数 另一个使用 compile.search函数 ,分别(不同时)循环执行count次(count从1-1万),比较两者的耗时!
得出的结论是:100次循环以内两者的速度基本一致,当超出100次后,使用 正则对象Pattern 的函数 耗时明显更短,所以比re模块 要快!
六、注意事项
1.字节串 与 字符串
2.r 的作用
3.正则查找函数 返回匹配对象
4.重复使用某个正则
5.Python 正则面试
最后感谢大家阅读,希望大家能学有所成~
优质文章,推荐阅读: